查看原文
其他

李井奎|五个《西游记》故事解读今年诺贝尔经济学奖得主们的工作

李井奎 奎星楼笔记 2022-12-31

【作者按】2021年诺贝尔经济学奖10月11日揭晓,一半授予戴维·卡德(David Card),“以表彰他对劳动经济学的经验性贡献”,他来自加州大学伯克利分校,是经济学教授;另一半联合授予约书亚·D·安格里斯特(Joshua D. Angrist)和奎多·W·因本斯(Guido W. Imbens),“以表彰他们对因果关系分析的方法学贡献”,他们分别来自麻省理工学院和斯坦福大学,同为经济学教授。其实,无论是戴维·卡德还是安格里斯特以及因本斯,他们都在因果推断的领域做出了贡献。作者在2020年于哈佛大学访学期间,就曾在哈佛和MIT聆听多位这个领域杰出学者的课堂,并撰写了一部关于因果推断领域前沿学术进展的科普书——《大侦探经济学》,2021年7月由中信出版社比较编辑室出版。在这本书的最后一章,为了让读者们更为通俗地理解因果推断领域的前沿工作,我特别编写了五个《西游记》的故事,生动介绍了这个领域的基本内容。相信大家在阅读了这样的故事介绍之后,会对本届诺贝尔经济学奖得主们的主要研究领域有了更进一步的理解。

因果推断的五种武器——《西游记》番外篇

        在人类生活的各个领域,从经济到政治,从历史到文化,经济学大侦探们都保持着充盈的求知兴趣,为我们释疑解惑。
近20余年,经济学大侦探们之所以能够做出许多这样有趣而深刻的研究,是与因果推断的统计和计量方法的迅猛发展分不开的。他们在进行因果效应探究的过程中,主要运用了五种基本的计量方法,我在这里把它们叫做因果推断的五种武器。
这五种武器分别是:随机实验方法、回归方法(倾向得分匹配方法)、双重差分方法、断点回归方法以及工具变量方法。这些方法最根本的精神是由随机实验所给出来的,但是,由于许多时候我们根本无法进行实验,仅能取得非实验性数据(非实验性数据也被称为观测性数据,本章“雷音寺与凌霄殿的纠纷——匹配回归显神通”一节有所介绍),所以,其他几种方法就显得非常重要。无论是哪种方法,都是在尽可能地从非实验性数据中寻找出随机实验的情境[s1] ,通过适当的方法对因果效应进行研究。这种现实当中发生过的随机实验情境,就是所谓的自然实验或准实验。它们之所以能够作为类似随机实验的情境而被发掘出来,则是出于我们经济学大侦探们的慧眼和慧心,同时也是拜因果推断的这些武器所赐。
在这一章里,我们集中介绍大侦探们在进行因果推断时所使用的五种武器。为了让读者们能够更有趣味地领略因果推断的思想,我尽可能地不使用任何理解起来可能给读者造成困难的技术,而只以笔者杜撰的《西游记》番外篇的几个故事来展现其中每一种武器的奥妙所在,同时再辅之以对每种武器的发展历史以及逻辑脉络的简要介绍。
探究因果关系是科学的目的所在。因果推断的领域非常广阔,如今的发展更可称得上是方兴未艾。笔者有幸在哈佛大学访问一年,期间在哈佛大学和麻省理工学院有机会聆听该领域多位著名学者的课堂,能够见证这一领域波澜壮阔的发展态势,十分兴奋。能把因果推断的思想以浅显的语言介绍给中国读者,能把经济学大侦探们神乎其技的科学研究介绍给感兴趣的读者,也是笔者的荣幸!

仙丹、蟠桃和唐僧肉——随机实验辨长生

在吴承恩先生所撰的《西游记》中,无论是凡人还是妖精,都有一个深切的渴望,那就是将来能够成仙成佛,长生不老。
要想长生不老,途径却不多,主要就那么几条路。
第一条路,吃唐僧肉。可是,在整个《西游记》中,我们只看到一个又一个妖怪喊着吃唐僧肉,却没有一个吃得成,最后还都枉送了性命。所以,这条路肯定是不用考虑了。
第二条路,吃镇元大仙的人参果。这条路也窄得很,且不说人参果树结果子太少,那镇元大仙也不是什么好惹的主,就连悟空、八戒和沙和尚偷吃了几个果子,都被他的童儿好生羞辱了一番,平常人就更没有机会了。
实际上,天庭为了保证它对凡界的吸引力,激励凡界中的人和妖一心向道,紧密团结在以张玉皇为政治领袖、太上老君为精神领袖的天庭中央,是给凡界人士指出了两条明路的。这就是第三条路和第四条路:吃蟠桃和服仙丹。
蟠桃和仙丹这两样东西,都可以使人长生,这是天庭的两件法宝。没有了这两件法宝,许多人就缺乏修炼成仙的动力了,这对天庭的生存是非常不利的。但是,这两件宝贝到底谁的效果更好,《西游记》书中没有交代,其实很值得一探究竟。
这一天,王母娘娘来到凌霄宝殿,当着一屋子神仙的面告太上老君的状。
王母道:“最近我听说,那些修道的都在议论说,我的蟠桃长生的效果赶不上老君的仙丹,他们现在更喜欢跑到老君的庙里去烧香。太上老君最近的香火钱可是赚了不少,我的王母娘娘庙都没人去上香了。这也不知道是谁传出去的谣言,今天得让玉帝和满朝文武仙官给评评理。”
玉皇大帝问老君可有此事,太上老君出班禀奏道:“我最近确实也听说了类似的说法,但我听说的是修道的认为蟠桃比仙丹更能让他们的长生。我挑了几个王母娘娘庙看,发现那里的香火也很旺盛啊,王母娘娘肯定也赚了不少香火钱。”
玉帝问大家可有解决这个争议的办法,太白金星说道:“这个问题确实比较棘手,不好回答。因为修道者如果获得位列仙班的资格,通常既会由王母娘娘赐予蟠桃,又会由老君赐予仙丹,他们是既吃了蟠桃,又吃了仙丹,后来成为神仙,长生不老。当然,也有些修道者命浅福薄,虽然吃了仙丹和蟠桃,最后也没能长生。这真是很难说到底是蟠桃还是仙丹效果大。”
看到玉帝愁眉不展,金星又赶紧说道:“其实,要解决这个疑问也不难。我听说现在人间发展了一种叫做实验的方法,我们可以做一个实验。”大家纷纷问金星,实验到底是怎么回事。金星这才缓缓说道:“要想知道蟠桃和仙丹哪一个长生效果更好,其实并不难,只需要让获得成仙资格的修道者一半吃蟠桃,一半服仙丹,然后看看他们谁能活过十万八千年之后位列仙班就可以了。”
玉帝一听,觉得有理,于是吩咐下去,按照太白金星的办法进行实验。让100个修道者吃下蟠桃,100个修道者服用仙丹,然后来看最后的效果如何。这就相当于招募了200个修道者做实验的小白鼠,玉帝想知道蟠桃是不是比仙丹更有长生效果,所以,这100个吃下蟠桃的修道者就进入了干预组或处理组,这100个服用仙丹的修道者就被划入了对照组或控制组。
经过十万八千年以后,实验结果终于出来了,只要能够活过这十万八千年,这些人就进入了永生不死的行列,当然,要想成仙成佛,还得经过本章第二节中所提到的“宇宙大爆炸”考试。100个服用仙丹的修道者中,成功活过十万八千年的有70人,长生率为70%;100个吃下蟠桃的修道者中,成功活过十万八千年的有90人,长生率为90%。从这个实验结果上看,似乎蟠桃的长生效果更好。而且这个结果也解释了为什么有些修道者即便既服用了仙丹又吃下蟠桃,也还是不能长生不老,你想,假如给吃蟠桃那组没有熬过这十万八千年的那10个修道者再吃上仙丹,似乎也只有70%的机会得长生,也就是说,最后还是会有3个倒霉蛋即使蟠桃和仙丹都吃了也熬不过这十万八千年。
这个实验结果让王母娘娘很满意,她当即命人把实验结果张贴在南天门外,好让过往的神仙都知道,蟠桃才是最好的长生药。可以想见,日后王母娘娘庙的香火一定会更好。
但就在这个时候,那个孙猴子出来捣乱了。
这天,孙悟空闲来无事到南天门遛弯,看到了这个实验结果,他又向四大天王了解了实验过程,就一把把布告扯了下来,连声高喊:“凌霄殿上都是一帮有眼无珠的家伙!”
玉帝虽然生气,但还是给了孙猴子一个解释的机会。
齐天大圣来到凌霄宝殿,说道:“你们这个实验看起来似乎不错,但这实验中却混入了其他因子,污染了实验结果。因此,你们得到的这个结论是一个有偏误的结论。”
太白金星问道:“大圣何出此言?我们做这个实验的时候,是按照自愿的原则,挑了100个自愿服用仙丹的修道者服用仙丹,100个自愿吃下蟠桃的修道者吃下蟠桃,又没有人去逼迫谁必须吃下蟠桃或者服用仙丹。这个实验结果何等公平,大圣你该不是无理取闹吧?”
那悟空笑道:“老头儿,我看你呀,读书虽多,却不仔细。你虽然做了实验,但这个实验不是随机实验,所以得到的结果不能被认定为是因果性的结论。如何才是随机实验呢?这每一个修道者进入干预组与否的概率应该一样才是,你不能让每个修道者的其他特征影响到他进入到干预组和对照组的概率。你看看,这女神仙基本上都选择了王母娘娘这边,干预组中有大量的女性修道者,而女性这个因素很可能会影响到实验结果。再比如说,凡是在终南山修炼的都跑到了服用仙丹的那一组,而终南山的贫困生活早就让那帮修道者的身体变得很差,即便服用了仙丹,也可能不得长生。这女性因素,还有这终南山的修道环境,都是混杂因子。”
齐天大圣这么一说,太白金星不禁连连点头:“大圣说的不错。这女神仙确实更容易长生,最近这些年只要是女修道者,从未见到有服用了仙丹和蟠桃而没有长生的。终南山上终年积雪,好多修道者常常两三天才能吃到一顿饭,身体确实很差。听大圣一席话,真是胜读十年书。”
悟空继续说道:“对于做实验,随机分组非常重要。所谓‘随机分组’,就是尽可能保证每个实验对象进入到干预组与否的概率是一样的,也就是说,他们进入到哪个组,跟他们自身的其他特征没有关系,这样才做到了‘苹果与苹果相比、橘子与橘子相比’。否则的话,你们拿不同的修道者在进行比较时,就混入了其他的因素,得到的结果里就混杂了其他那些因素所产生的影响。这种影响叫做选择性偏误,说明你有偏向地选择了某些群体进行干预,这个时候,你们把实验结果做因果性的解读,岂不是大错特错?!”
悟空用金箍棒在空中写了两个式子:
所观察到的仙丹长生效果=仙丹对长生的因果效应+选择性偏误甲
所观察到的蟠桃长生效果=蟠桃对长生的因果效应+选择性偏误乙
由此得到的蟠桃的比较效果是:
(所观察到的蟠桃长生效果-所观察到的仙丹长生效果)=(蟠桃对长生的因果效应-仙丹对长生的因果效应)+(选择性偏误乙-选择性偏误甲)
悟空说:“我们真正想知道的是等号右边第一个括号中的取值,这个取值告诉我们蟠桃是否比仙丹更加具有长生效果,但我们实际得到的却是等号左边括号中的值,这个值里混杂着选择性偏误,也就是等式右边第二个括号中的取值。所以,你们的实验结果并不准确,不能做因果性解读!”
众神仙听了齐天大圣这番话,无不点头称是,纷纷向大圣竖起来大拇指。太上老君更是不住地向悟空道谢。玉帝看到这般场景,只得宣布实验重新再做一次。这一次招募的200个神仙,玉帝用掷骰子的方式来定,掷出来是1、3、5点的,归入干预组,掷出来是2、4、6点的,归入对照组。这一下就完全做到了随机分配实验对象。玉帝终于通过掷骰子把事给办了。
就这样,又过了十万八千年,实验期满,结果公布:服用仙丹的对照组,100个修道者有80个取得长生,比原来的70个增加了10个;吃下蟠桃的干预组,100个修道者也是80个获得长生,比原来的90个减少了10个。总体来看,服用蟠桃和吃下仙丹,其长生效果差不多。
齐天大圣用随机分配实验的方法,成功地解决了天庭的一场争论。
 
通过实验解决问题的办法,早在《圣经·旧约》中就有记载。在《旧约》中有一篇《但以理书》,记载了这样一个故事:巴比伦王国的尼布甲尼撒王抓到一批以色列青年,尼布甲尼撒王很喜欢这批年轻人,就命令用王宫里的食物和酒给他们提供日常的饮食,但这却让这些俘虏不断地逃跑。其中的一个青年但以理表示,按照以色列人的宗教信仰,他们宁愿选择素食。国王的侍从们一开始拒绝了但以理的要求,担心这样会导致营养不良,不利于他们去服侍国王。但以理大胆提出了一个控制实验:在他们这些俘虏身上实验10天,除了吃蔬菜和喝水,别的什么都不要给他们。然后来和以服用皇家餐食的那些年轻人比较他们的表现,并根据结果来决定是否尊重他们的饮食习惯。当然,《圣经》上并没有给出下文,我们也就不知道这个实验有没有真正做过,不过,即便真正做过,这个实验也会存在我们前面所讲的由混杂因子所带来的结果上的那种选择性偏误,因为那些以色列选择素食的以色列人和选择皇家餐食的其他人之间,并不是完全相同的可以进行比较的实验对象,这会使因果推断结果出现偏差。
19世纪英国的著名哲学家穆勒,是那个时代鼎鼎大名的大学问家,在哲学、法学、政治学、经济学、逻辑学等领域都取得了很重要的成果。他在1843年写了一本逻辑学名著《逻辑体系》(A System of Logic),这本书可是那个时代的逻辑学圣经。在这本书的第三卷第七章《观察与实验》(Observation and Experiment)中,他提出要想研究一项政策或者干预所造成的影响,就需要比较同样一群人在受到干预和没有受到干预两种状态下的效果。穆勒认为,要想研究某一干预的效果,最好是让一对双胞胎,其中一个人受到干预影响,另外一个人不受干预影响,然后再比较二者的差别。穆勒提出来的这种探究干预措施因果效应的办法实在是太苛刻了,几乎没有办法真正得到这种因果性结果。
在20世纪初叶,随机对照实验的想法终于开始真正出现。1935年,著名统计学家和遗传学家罗纳德·埃尔默·费希尔爵士(Sir Ronald Aylmer Fisher)对穆勒的看法进行了猛烈的攻击。他认为,穆勒的办法完全没有实现的可能,因为相同的一批人不可能同时曝露在两种不同的状态之下。费希尔提出了随机实验的概念,他认为,对实验对象进行随机分配,使之进入干预组和对照组,虽然不能确保两组人完全一致,但是,随机分配使得他们的那些不同的特征与是否分入干预组或处理组没有了关联。因此,实验结果就可以被赋予因果性解释。
费希尔最终取得了胜利,成了现代统计学的奠基人之一,被称为几乎是单人独骑建立了现代统计科学的天才。
如今,随机实验方法在经济学中被广泛应用。无论是经济学中的实验室实验,还是随机实地实验,都是对随机实验方法的具体应用。同时,在经济学大侦探所使用的其他武器中,你也总能看到随机实验的影子,可以说,它是现代因果推断研究的核心理念和基本精神所在。

雷音寺与凌霄殿的纠纷——匹配回归显神通

在《西游记》的世界里,存在着部分佛道之争的影子,他们争的是人们精神世界的统治地位。
东方道教的代表当然是玉皇大帝和太上老君,他们创立了一个学院,名叫“东方凌霄殿学院”。那些底层的一心想着长生不老、位列仙班的修炼者,可以进入这个学院修读。
西天佛教那边也是一样,如来佛祖和观世音菩萨也创立了一个学院,名叫“西天雷音寺学院”,那些同样想长生不老、修成正果的修炼者,也可以进入到这个学院学习。
修炼到一定年头后,天地之间有一个“宇宙大爆炸”考试,修炼者都需要通过这个考试,才能获得成仙成佛的资格。这个考试每隔一段时间就会安排一次,考试结果却是连玉皇大帝和如来佛祖都无法预料的。因为这个考试在宇宙大爆炸之前就已经存在,玉皇大帝和如来佛祖也奈何他不得。一个修炼者,考过了,就可以获得仙佛资格证;考不过,拿不到仙佛资格证,吃多少蟠桃和仙丹都白搭。而且,每一个修炼者一辈子只有一次参加这个考试的机会,大家都很重视,这也使得玉帝和如来在招生问题上经常爆发抢人大战。
这天,齐天大圣孙悟空正在花果山水帘洞中安睡,突然他的手下哼哈二将走了进来。
哼将军拿了一把菩提叶,上面写满了梵文。他对孙悟空说道:“大圣,山下最近很热闹,都是发小广告的。这是西天雷音寺学院最近这一段时间发来的小广告,上面说,上了西天雷音寺学院,包你在大爆炸考试中妥妥过关。咱们这西边山上的猴群里,昨天接到了这些小广告,都跑过来向我辞行,想去西天雷音寺学院学习去。”
这时候哈将军拿出了一卷黄表纸,上面画满了符咒。他禀报道:“大王,我这边的情况和哼将军那边大致不差,最近也是一大堆发小广告的。你看,这都是东方凌霄殿学院发来的,他们宣称上了东方凌霄殿学院,大爆炸考试就是小菜一碟。咱们这东边山上的猴群有不少猴兄猴弟猴姐猴妹接到这个小广告的,也都表示希望去东方凌霄殿学院去学习。”
大圣一听,这猴群的心可不能散,于是命令哼哈二将,召集大家一起到水帘洞聚义厅中议事。在开会之前,大圣又向哼哈二将耳语了几句,他们二人点头领命而去。
等大圣来到聚义厅里的时候,猴子们已经吵得不可开交。东山的猴子说上东方凌霄殿学院好,那里有太上老君、灵宝道君、清虚道德真君等人授课,这些人可都是个顶个的修道界高人,肯定能让修炼者在宇宙大爆炸考试中考好。
西山的猴子也不示弱,他们大夸西天雷音寺学院好,授课的老师里不仅有观世音菩萨,还有弥勒佛[s2] 、灵吉菩萨等人,他们都是佛法无边的高人,自然能让修炼者顺利通过宇宙大爆炸考试。
双方各执一词,谁也说服不了谁。最后,他们只能请大圣来定夺哪一个学院更好。
这时候,一个老猴精走上台去,对众人说道:“这件事要分辨清楚又有何难?你们没听说咱们大王之前在天宫里,使用随机实验的办法搞清楚了仙丹和蟠桃的长生效果那件大案吗?现在整个天地都知道这件事了。我们同样可以用随机实验来回答你们的争论。”
众猴听他这么一说,忙问如何才能得到答案。只听这个老猴精悠悠说道:“我们只需要在你们当中用抽签的方式,确定让100只猴子去上西天雷音寺学院,100只猴子去上东方凌霄殿学院。等你们学满时间,再去一起参加宇宙大爆炸的考试,哪边考过的猴子数多,哪边的学院就是最好的。”
众猴一听,却都沉默不语。一来,因为这宇宙大爆炸考试,每个修道者只能考这么一回,考不上这辈子就不用再想成仙成佛的事情了,谁也不愿意拿自己这辈子唯一一次机会冒这个风险。再者说,这种实验把每个猴子都当成小白鼠,可花果山上的猴子们都是兄弟姐妹,做这样的实验,大家在道德上都感到过不去。
齐天大圣笑道:“老猴精虽然说的不错,但这个实验如何使得?其实,要想知道这两个学院对考试通过率的影响有没有差别,我们还有一种方法。这种方法不是面对实验数据的,而是面对观测数据的。实验数据是通过做实验才能收集到的数据,数据的变异性是通过人为操纵产生的,比如经由随机分配的方法把实验对象分入干预组和对照组,通过比较实验结果数据的差异,来确定一项干预政策的因果效应。但观测数据却不是这样,它是从现实世界中搜集到的数据,本身并没有谁刻意地按照研究人员的意图进行操纵而生成的数据。所以,观测数据往往只能反映出不同变量之间的某种关联,到底这种关联是谁引起了谁,还是同时依赖第三方的条件而变化,观测数据不能直接告诉我们答案。”
老猴精面露大惑不解之色,张口问道:“大王,我们想知道上哪个学院才能更有助于考过宇宙大爆炸考试,这里面牵涉到两个变量:一个变量是考试通过率,一个变量是上的哪所学院,我们想知道上的哪所学院是否对考试通过率有因果效应上的差别。如果观测数据无法回答这种因果关系,那么,它对解决我们今天的争论又有什么用处呢?”
大圣笑道:“老猴精你是只知其一,不知其二。若是随机分配实验这条路走不通,还有一些计量工具也可以大体上像真实实验一样,从观测数据中找出因果关系来。这些工具中最基本的就是回归方法,它可以让我们在具有相同可观测特征的处理组和控制组之间进行比较,而且这个回归的概念非常根本,它为其他那些将会使用到的复杂工具铺平了道路。基于回归进行因果推断,有一个前提假设,那就是研究人员可以把所有实验对象的特征都观察到,而当处理组和控制组在可观察到的关键变量上都一样的时候,因这些因素所造成的我们观察不到的选择性偏误基本上就能得到消除,这样,干预政策的因果关系就可以得到确证。”
说话间,有猴来报:“报告大王!哼哈二位将军已经回来,他们让我报告大王,他们带回来了很多观测数据,包括自盘古开天辟地以来参加两个学院的所有考生的全部个人信息。”大圣命众猴一起出去,帮忙把这些数据抬回水帘洞。
这批数据是哼哈二将从每个修炼者处拿到的所有个人信息,不仅包括他们个人的各项特征,比如曾在哪个地区修炼,本身是何种动物出身,以及其他社会关系等信息,这里面还包括最为重要的两个变量的信息:一是他们当初曾经向两个学院投递入学申请以及是否得到录取的情况信息,二是他们的考试结果信息。
大圣命哼哈二将将满足以下条件的修道者信息挑选出来:这些修道者向两个学院都递交了入学申请,且都被录取,当然,最后他们只能上其中的一所学院,然后参加了宇宙大爆炸考试,取得了考试结果。哼哈二将命令众猴从诸多修炼者中进行查找,找到了这样修炼者多达数万。然后,大圣又命他们二人去看这些人为什么去选了其中一所而不是另一所学院就读。结果,哼哈二将发现这些修道者之所以选择其中某一个学院就读,除了地域、种群等可以观察到的因素之外,完全出于随机。有的修炼者说,我当时就是扔一块石头,看掉在地上摔成几瓣,若是奇数就去东方,若是偶数就去西天;有的说完全看心情;有的更奇葩,说本来想去东方,结果走了几步被蚂蚁咬了一口,觉得不高兴了,然后折返去了西天。这些原因真是五花八门。
于是,大圣命哼哈二将根据修炼者地域、族群、修炼时间等可以观察到的特征,把去往西天雷音寺学院的修炼者和去往东方凌霄殿学院的修炼者分成许多小群。比如第一小群,修炼者都来自东海,族群都是龙族,修炼时间都是1000年,共得500人。这个小群又分成了两组,一组就读于雷音寺学院,为250人;一组就读于凌霄殿学院,也是250人。再来看第二小群,修炼者也都是来自东海,族群是东海渔民,修炼时间500年,同样这个小群里也是分为就读于雷音寺学院的一组和分为凌霄殿学院的一组。如此等等。
这个分群分组工作量很大,但哼哈二将工作效率极高,还是很快把这些分群和分组都做好了。在大圣的指导下,接下里他们的工作就是计算各个小群中每一组的考试通过人数,等所有小组都计算完毕之后,再根据各个小组人数所占总人数的比例来做加权的权重,最后终于得出了结果。
哼哈二将拿到结果来到水帘洞,禀报大圣之后,开始宣布答案:他们发现,入西天雷音寺学院就读的修炼者,总人数虽然比到东方凌霄殿学院就读的修炼者少30%,但是双方在宇宙大爆炸考试中的通过率却是基本一致。
谜底揭晓,大家感觉原来两个学院虽然总就读人数不一样,但考试通过率却没有差别,那去哪一所学院学习也就没所谓了。
老猴精此时若有所思,喃喃道:“我终于猜出大圣的意思了。大圣使用可以观察到的这些个体修炼者的特征,尽可能地在相同特征下把修炼者匹配起来,然后分为两组,一组去雷音寺学院,一组去凌霄殿学院。而在相同的特征下,他们去到那个学院,又是完全随机的。这就相当于保持了其他特征不变,随机分配了修炼者到两组之中。基本思想与随机实验相同,但却巧妙地利用了回归的思想。看来这回归的意思,就是‘保持其他条件不变’呀!”
想到此处,老猴精不禁抚掌大笑,连呼妙绝!
 
“回归(regression)”这个词是查尔斯·达尔文的表弟弗朗西斯·高尔顿爵士(Sir Francis Galton)在1886年发明的。
也许是受他的表兄的影响,高尔顿一直希望把达尔文的进化论思想应用到人类的性状变异研究中,他的研究涉猎范围很广,从指纹到美的特性无所不窥。而且,他还希望使用达尔文的理论进行人种改良,这种工作当然不会取得什么进展。但高尔顿在理论统计学方面的研究,确实对社会科学产生了深远的影响,为定量社会科学研究奠定了统计学基础。
1886年,高尔顿发表了一篇名为《遗传身高向平均值方向的回归》( Regression towards Mediocrityin Hereditary Stature[1]的文章,他发现,可以用回归方程把父亲与儿子的平均身高联系起来。这当中还蕴含着一个有趣的现象,那就是:比平均身高更高的父母,其子女的身高一般会比他们矮一些;但比平均身高低的父母,其子女的身高往往要更高一些。高尔顿把这种特性称为“向均值回归”(Regression to the Mean),向均值回归并不是一种因果关系,仅仅是具有相互关联的变量组的一种统计属性。虽然父母和子女的身高永远不会完全相同,但其频率分布基本不变,正是这种分布的稳定性产生了高尔顿回归。
今天,我们把回归视为一种统计方法,它的主要特点是通过控制其他那些可以观察到的变量,而使一项干预政策效果的比较更具有可比性,这就相当于是保持了其他条件不变,我们可以观察这项干预政策所产生的效果如何。高尔顿似乎并不感兴趣于把回归看成是一种控制策略,最先赋予回归这种统计意义的人是乔治·伍德尼·尤尔(George Udny Yule)。算起来,尤尔算是高尔顿的徒孙,因为他的老师、著名统计学家皮尔逊是高尔顿的学生。
尤尔对当时英国的《济贫法》(English Poor Laws)很感兴趣。他想知道,只是为穷人提供金钱救济,却不要求他们承担义务,这种做法是否提高了所在郡县的贫困率。他使用回归控制了这些郡县的人口增长和年龄分布等其他特征,研究了这个问题。应该说,尤尔已经有意识地把这个问题作为一个因果性问题在加以对待了。
后来,法国数学家勒让德和高斯发明了最小二乘法,进一步使回归这个统计学方法流行开来。

通天河畔的领悟——断点设计揭谜底

话说唐僧师徒经历千难万险,终于从西天如来处取得真经,几个人人扛马驮,一路把佛经送往东土大唐。
这一天,师徒四人走到了通天河,只见通天河波涛汹涌,浊浪排空,正发愁怎么过去。悟空远远看到了一只大老鼋,原来它早就等在这里接唐僧师徒过河。
师徒几个人欢天喜地地上了大老鼋的背上,乘风破浪,来到通天河上。大老鼋原是这通天河的主人,后来被妖怪灵感大王夺了巢穴,幸得孙悟空去南海请了观世音菩萨,用鱼篮收走了灵感大王。西去时,大老鼋驮唐僧师徒渡过通天河就是为了报答孙悟空,当时他还让唐僧代问佛祖自己什么时候才能脱掉本壳,修成人身。现在,一行人在通天河上兴高采烈,大老鼋又向唐僧问起此事。
唐僧一听,心里暗叫:“哎呀不好,我到了灵山,竟然把这个事给忘记了。”但唐僧是个实在人,不会说谎,只得老实地向大老鼋承认,他把这事给忘了。这可把大老鼋给气坏了,他心想:“我日日夜夜盼你们回来给我带个信,没想到你们竟然给忘了,真是太不把我当回事了。”于是,一生气,大老鼋沉到水底去了,唐僧师徒连同经卷一下子都掉到了通天河中。最后还是观音菩萨把他们从水里救了上来,并且告诉他们说:“你们师徒总共才经历了八十难,还差一难,才能达到九九归真之数,这一难你们是没有办法躲掉的。”
等到唐僧师徒终于一个个都爬到岸上,这才把经卷打捞上来,摆在阳光下,等着经卷一一晒干。
八戒看到这个场景,不禁嘟囔道:“如来佛祖这是干什么呀?还说什么九九八十一难,非得让我们受这份罪。”
唐僧说道:“八戒,休得胡言乱语。求取真经本来就是千难万苦的事情,这最后一点磨难算得了什么?”
沙僧看到大师兄孙悟空一直在一旁静静思索,于是问道:“大师兄,你在想什么呢?”
悟空此时缓缓转过身来,一脸严肃,开言道:“我总觉得,咱们这场西天取经,似乎是如来佛祖和玉皇大帝合伙安排的一场阴谋。”
“什么?阴谋?”猪八戒一听,骨碌一下从地上爬起来,说道:“我说猴哥,你不是早就批评过,不要啥事都往阴谋论上扯吗?这回你怎么自己也开始宣扬阴谋论的论调了?”
只见行者掣起金箍棒在地上画了一幅从东土到西天的地图来,并在这地图上标记何处遇到了何种妖怪,师徒几人遇到了哪些磨难,并把各种妖怪盘踞该处的时间也都标上。
沙僧这个时候也感到大惑不解,忙问:“大师兄,你这是在做什么?”
唐僧此时也说道:“悟空,你又在搞什么玄虚?阴谋论这样的说法,可要慎重,没有真凭实据,不可以乱说。”
行者笑道:“师父,我若没有凭据,断不敢胡乱说。”
八戒撇了撇嘴说道:“师兄这张嘴,谁不敢说?你难道还有玉帝和如来一起商量让咱们瞎跑这一趟的录音不成?”
那悟空跳到高处,说道:“呆子,莫要胡说,要相信科学。我先说咱们这一路,难道你们不觉得生疑?我怀疑,早在五百年前,我大闹天宫的时候,如来应玉帝之邀来捉拿于我,就已经商量好了让师父西天取经的事情。那如来一直希望能够把佛教势力扩大到东土,过去有玉帝的道教抵抗,无法进来。没想到,我在东胜神洲闹得动静太大,玉帝不得不请如来一起联手剿灭我花果山。如来把我压在五行山下,已经有了主意。他以此为筹码与玉帝做生意,希望把佛教传入东土。可要传入东土,就必须得有一个能让大家都看到的伟大故事,于是才有了我们师徒跋山涉水,从东土大唐一路走到灵山,去取这真经。我们这一路就仿佛是搞了一场路演,或者说,是搞了一场历时多年、多地的大型行为艺术,搞得是天下皆知,而且我们这样千辛万苦才求取到的真经,自然也更为一般的普通愚民所相信。”
唐僧听后,默然不语。
沙僧这时候问道:“大师兄说的虽然在理,但仍然是猜测而已,既然是猜测,就有其他的可能,这阴谋论恐怕难以坐实啊。”
没想到,猪八戒这个时候却突然一拍大腿,说道:“猴哥说的很有可能。把我投胎到高老庄,把沙师弟流放到流沙河,这都是师父西天取经的必经之处。另外,把猴哥压在五行山下,也是奇怪,这地点奇怪。五行山所在地正好在东土大唐的边界上,是通往西天的必经之地,这一切都很巧合啊!”
这时候,唐僧双掌合十,说道:“八戒,你刚才所说,也许只是巧合而已,不见得就是如来佛祖和玉帝的有意安排。”
悟空接下话头说道:“师父说的原也不错,我当初也这样想,直到最近,我到了西方,学到了一种叫做断点回归的方法,才把这个谜底给猜出来。”
沙僧忙问道:“大师兄,你是如何猜到谜底的,快说来给我们听听吧。”
悟空用金箍棒一指他刚才画出来的地图,说道:“师父和两位师弟请看,在这幅地图中,我把每个妖怪下凡到盘踞地界的时间都标在了上面。你们还记得师父是哪一年从东土大唐出发去西天取经的吗?对,是大唐贞观三年,这一年刚好是我压在五行山下五百年,也是八戒和沙师弟被贬下凡的那一年。”
八戒和沙僧都点头称是。
悟空继续说道:“这大唐贞观三年就是一个时间上的断点。你们看,在贞观三年以前,西天路上的妖怪基本上都是本土生长的,而且由于去往西天路上经过的大多是贫瘠之地,所以,妖怪往往不算是很多,在更南边的四川盆地和更北边的天山脚下,盘踞着更多妖怪。过去若真有神仙被贬下凡,也往往是随机地投胎到各地,西天路上的地界占全部天地之间的范围很小,贬到这里的可能性是很低的。但这一年及之后,却突然之间有大量妖怪到了去往西天的路上盘踞,而且其中大部分都是和天界有关系的妖怪,岂不怪哉?”
唐僧禁不住点了点头,但随即又摇了摇头,说道:“悟空,也许是大唐贞观三年这一年,天界碰巧发生了其他的变故,正好有一批神仙同时出了点事情,巧合发生了。这也未必就是你说的那种阴谋吧?”
八戒和沙僧一脸疑惑,也把怀疑的目光再次投向了悟空。
悟空道:“师父说的极是,这种可能原本也许是会有的。但我仔细检查了一番之后,发现情况并非如此。”
唐僧示意悟空说下去。
悟空用金箍棒再指了一下地图,说道:“师父及两位师弟来看,如果这一年天界发生了变故,许多神仙被贬下凡,我们了解贬入凡间的机制,一般来说都是随机地贬入凡间,所以,即便这一年天界真的发生了什么变故,也不应该都把神仙贬到去往西天的路上。”悟空一指更为广阔的南方和北方,继续说道:“你们看,大唐贞观三年之后,这些地方,竟然没有一个神仙贬下凡间。如此反常,不能不令人生疑。”
悟空继续说道:“除此之外,我还对神仙们下凡的原因一一作了调查,我发现,这些原因五花八门,但多数都很可疑。比如说沙师弟,他在王母娘娘蟠桃会上失手打破了一个琉璃盏,这本来是一件很平常的小事,玉帝却异常震怒,把他贬到流沙河做妖怪。这在过去是从来没有出现过的事。”一席话说的沙僧频频点头:“我也一直百思不得其解,今天听师兄这么一说,觉得很有道理。”
悟空看了看八戒,八戒低下了头。悟空笑道:“八戒本来是天蓬元帅,调戏嫦娥仙子,这才被贬下凡,做了一头猪。罪责和刑罚倒是得当,但哪里不好投胎,反而投胎到高老庄。按我说,该罚他去极北苦寒之地去,那不就没有这番与高小姐的婚事了?再看那老君的青牛精、烧火的童儿,如来脚下偷油的老鼠,他们偷偷下凡的事情,过去从来没有过,怎么一到大唐贞观三年,这一切都出来了。所以说,我们如果拿大唐贞观三年做一个断点,把在这一年之前的十年间的妖怪的身份和地区分布,与这一年之后十年间的妖怪身份和地区分布进行比较,就可以明显看到,这是玉帝和如来两个家伙有意为之。目的就是让我们大张旗鼓地跑这一趟给全天下的愚夫愚妇们看,这佛经得来不易,佛教能带他们脱离苦海。”
悟空这一番话,说的众人都沉默不语。
最后,唐僧道:“悟空,你学得这种断点回归之术,的确颇为神奇。无论是你之前用到过的随机实验方法、匹配回归方法,还是这神奇的断点设计方法,都是西方科学精神的体现。我千辛万苦研读佛法,把这些佛经带回东土,目的是要渡天下百姓,让他们能够脱离苦海,发现真理。你将来不妨也像我一样,到西方把这种科学精神带回东土大唐,让这个飞天民族能够大力发展科学,壮大力量,走向富裕。这才是你们应该做的事情。”
说话间,夕阳西下。
悟空眼望东方,只见寒鸦纷飞,落木萧萧,长安城影影绰绰。悟空知道,师父又何尝不知玉帝与如来的这番用心!他就是要为我东土大唐带回佛教思想,在他心中,让祖国汲取各种思想和技术,荟萃天下,博采众长,胸怀世界,这才能真正实现让这个飞天民族屹立于世界的梦想。
想到这里,悟空望着师父坚毅的背影,不禁热泪盈眶。
 
如今,断点回归方法越来越多地应用于社会科学的研究当中。在本书的许多大侦探故事中,很多篇都有断点回归的影子,其中最擅长使用断点回归设计的是哈佛大学经济系梅丽莎·戴尔教授(参见本书第二章《墨西哥毒品战争之殇》)。
断点回归设计最早是由两位心理学家唐纳德·L.斯特里斯维特(Donald L. Thistlethwaite)和唐纳德·T.坎贝尔(Donald T.Campbell)在20世纪60年代提出来的。当时,他们想研究美国国家学业奖学金对获奖者的职业和人生态度所产生的影响。美国国家学业奖学金需要经过多轮评选,最终一年只有不到1000名优秀的高中高年级学生获得这项奖学金。这项奖学金基于申请人在PSAT和SAT考试的成绩进行评选,这两个考试是绝大多数美国大学申请人都会参加的大学入学考试。[2]相比较于其他人,两位心理学家先使用匹配回归方法,得到那些获得美国国家学业奖学金的优胜者最终成为一名高校教师或研究员的概率要高4%,但针对国家学业奖学金优胜者的分数线进行的断点回归设计所给出的结果却只有2%,并且在统计上并不显著。这说明,使用匹配回归方法得到的结果要想解释成因果效应,有一个前提条件,那就是基本上所有的相关变量都是可观测的,且都纳入到了回归方程中去,不存在其他不可观察的遗漏变量。但有时候,这个假设可能太严格了,遗漏变量所带来的偏误在所难免,使用断点回归设计就可以更好地把研究对象进行随机化分组,因为断点的选择本身与实验对象的其他特征不相关,这就不会影响她或他进入到干预组或控制组的概率。因此,断点回归设计所得到的结果就会更加可信。
唐纳德·T.坎贝尔是20世纪美国著名的社会心理学家,也是社会科学方法论的重要思想家之一,1970年获美国心理学会颁发的杰出科学贡献奖,曾经担任美国心理学会主席。他在1963年与朱利安·斯坦利(Julian C. Stanley)合作撰写的《实验与准实验研究设计》(Experimental and Quasi-Experimental Designs for Research)的专著[3],至今仍然是重要的参考文献,对实验方法和计量方法做出了先驱性的研究贡献。

高老庄与流沙河——双重差分断奇案

唐僧师徒四人离开通天河之后,一路东来,眼见就要回到东土大唐。
这一日,悟空飞身上云巅,手搭凉棚向前一看,但见前方村落密布,正是到了大唐地界。悟空远远望见,前方不远有一个村子,不是高老庄又是哪个?
悟空按下云头,一见八戒就笑道:“呆子,你的老丈人家到了!”八戒一听,喜出望外,迫不及待地向那高老庄行去。
不多时,师徒四人便来到了高老庄村。把师父安顿到村头的旅店中之后,八戒便嚷嚷着出门去寻娘子,悟空担心会出意外,也跟着走了出来。
八戒他们走进村子,却发现满村都是小伙子,姑娘家倒是没见到几个,哪怕是小孩子,也只见男孩,少见女孩。心下正自纳闷,八戒找了半天,却未见高翠兰家。着急之际,八戒只得央求悟空把那土地公公召唤出来,问他到底发生了什么事。
悟空喊了一声:“土地老儿何在?”
只见一股青烟,土地公公冒了出来,对悟空和八戒鞠躬行礼:“孙大圣、天蓬元帅,你们求取真经,修成正果,可喜可贺啊!”
八戒急忙一把拽过土地老,问道:“不知道翠兰一家现在何处呀?”
土地公公忙道:“天蓬莫急!听小老儿一一道来。”原来,猪八戒离开高老庄的时候,喊了一句“我将来还会回来的”,可把高家给吓坏了。过了没一年,高翠兰一家人就搬走了,从此杳无音信。
八戒一听,默然不语,人就像霜打的茄子,再没了精神。
悟空又问道:“土地老儿,我走过这高老庄,怎么发现男孩这么多,女孩这么少?这是怎么回事呀?”
土地公公回答道:“大圣果然是火眼金睛,这高老庄这些年风气变得很坏,家家户户不愿意养女儿,生了女儿的都偷偷把她溺死,杀女婴的风气可盛了。”
悟空一听,大怒道:“真是岂有此理!”但他转念一想,总觉哪里不对,又问道:“土地老儿,我来问你,难道这高老庄从来就是这样不成?”
八戒这才插嘴道:“那肯定不会,我没走的时候,这村子里女孩子可比现在多多了,女孩男孩都是家里的宝贝,没见过谁家生了女孩就要溺死的。”
土地公公看了看八戒,对悟空说道:“说起来,这事确实有些古怪。自从天蓬元帅……”
说到这里,猪八戒嘟囔道:“我现在不再是天蓬元帅了,修成正果后如来佛祖封我为净坛使者。”
土地公公连忙改口:“对对!自从净坛使者上回离开高老庄之后,这十里八乡,就开始流传出一个谣言来,都说高老庄的女孩曾经遇到过妖精,会索命。这谣言一传开,高老庄的老百姓再嫁女儿,就需要比别的村子多陪送10两银子的嫁妆。10两银子对于大户人家还不算什么,对于一个小户人家,那就是一年的收成,这如何陪送得起?于是啊,这些年愿意生养女儿的就越来越少了。”
八戒一听,不悦道:“听你这意思,高老庄今天女孩少,人们杀女婴都是因为嫁妆要陪送得更多所致,好像这一切都是因为我而起啊!”
土地公公一听,忙道:“小老儿只是据实禀告,并无半点虚言。请大圣和天蓬……哦,不,净坛使者明断!”
悟空听了土地公公这样一说,一时也不知这原因是真是假,但他答应土地公公接下来几天去巡察一番,看看能不能解开这高老庄不喜女婴的因果之谜。
悟空和八戒告别土地公回到旅店,只见沙僧兴冲冲地走回来。
悟空忙问道:“沙师弟,你这是去了哪里?”
沙僧满脸笑意,说道:“大师兄、二师兄,我这也是回了一趟老家流沙河村啊。你们忘了吗?我后来虽在流沙河里为妖,一开始投胎却是在流沙河村。这流沙河村与高老庄村其实离得不远,婚丧嫁娶的风俗习惯都一样。我和二师兄可以算的上是半个老乡呢!”
悟空一听,计上心来。他向沙僧详细了解了一下流沙河村的情况,尤其是关于嫁妆的情况。
沙僧告诉悟空,这流沙河村之前和高老庄村一样,嫁女儿陪送的嫁妆不算太多,而且这女儿一般都嫁给附近其他村的小伙子。每到农忙时节,女婿过来帮衬农活,生女儿可不吃亏。悟空心道:原来这沙僧小时候是一个很乖巧的孩子,在村子里很得大家喜欢,后来去流沙河里做妖怪,也是菩萨指点。所以,村子里的人没人觉得沙僧是妖怪,长得就不像。哪里像八戒,长了一副猪头,不被人当成妖怪才怪。悟空想到这里,继续问道:“沙师弟,你走了之后,这流沙河村可有什么变化?”沙僧想了一会儿,开心地说:“大师兄,我没觉得有啥变化,我走的时候还很小,大家一直都对我很好,现在乡里乡亲还是很亲啊!没有啥变化。”
悟空心想,我哪里问你这个,于是又问道:“沙师弟,你们流沙河村的嫁妆现在和之前是不是仍然一样呀?村子里可有杀女婴的现象?”
沙僧大惑不解地说道:“村子里和之前一样,没有啥变化。杀女婴?为什么杀女婴?生女儿有生女儿的福气,虽然陪送些嫁妆,但白得了一个壮劳力帮衬农活,有啥不好?”说着,沙僧摇着头去喂马去了。
一宿无话。
第二天,悟空带上八戒、沙僧,跟师父告假之后,便来到高老庄的土地庙,把土地老倌儿给喊了出来。
“老倌儿,我现在可以很清楚地给你昨天那个猜测,找到了因果关系的证据。也就是高老庄嫁女儿嫁妆翻了好几倍,最终导致村里人不喜欢女孩,甚至出现了杀女婴的现象。”悟空张口便说道,“这事的确要怪八戒。”
八戒听见悟空这么说,可是不高兴了:“师兄,你说话可要有真凭实据,不能血口喷人啊!”
悟空揪住八戒的耳朵道:“我讲的话,都是有科学根据的,什么时候血口喷人过?”
沙和尚这时说道:“大师兄,既然你有了科学的判断,那就请你把这个判断从头讲给我们听听吧。”
悟空道:“这件事,如果没有沙师弟的帮忙,我原本也是一头雾水,理不出头绪来。”
沙僧却迷惑地问道:“大师兄何出此言?我好像没有帮过什么忙啊?”
悟空继续道:“事情是这样,土地老儿说自从八戒下界之后,在高老庄闹出那档子糊涂事,高老庄村就开始闹起了杀女婴的事情。虽然说,八戒娶高小姐在前,高老庄杀女婴在后,但一件事发生在另一件事之前,前一件事未必便是后一件事的原因,后一件事也未必是前一件事的结果。因为,有可能真正的原因与这里的前一件事同时发生,但却被我们给漏掉了。所以,如果只有高老庄村的数据,我们不能判断土地老倌说的是对还是错。”
“但是,”悟空看了看一脸困惑的沙僧,说道:“昨天沙师弟说起的流沙河村的情况让我有了主意。”
土地公公略一沉吟,拈须道:“这流沙河村与高老庄村一直是小老儿管辖的两个村子,风俗人情都是一样,两个村子先前确实是极像的。但是,现在……”土地公公摇了摇头。
八戒怒道:“师兄你继续说,这老倌儿说两句就叹气,叹哪门子气!”
悟空不加理会,继续说道:“没错,过去这两个村子非常像,嫁女儿陪送的嫁妆也是完全一样,并不像今天高老庄这么贵重。那个时候,两个村子的女孩和男孩的比例也是差不多的,并没有今天这样的差别。但是,八戒被贬入凡间,虽然要落在取经路上,可到底是落在流沙河村,还是落在高老庄村,却完全出于偶然。就是这样的偶然,使得高老庄村因八戒而起谣言,不仅害得高小姐一家远走他乡,这谣言还使得高老庄村嫁女儿陪送的嫁妆翻了好几倍。这个时候,我们已经知道,八戒下凡与嫁妆翻倍是联系在一起的,我们的问题就是这嫁妆翻倍是不是导致了高老庄村女孩减少了。高老庄村因为八戒下凡这个随机的因素而不得不陪送昂贵的嫁妆嫁女儿,这个组就是干预组,而流沙河村就成了对照组。之前流沙河村和高老庄村的表现都一样,这就满足了所谓‘平行趋势检验’,也就是说,流沙河村和高老庄村各个变量先前的变化趋势基本一致,可以被视为两个基本条件相同的村子。之后,一个嫁妆翻了倍,一个仍然维持了原来的嫁妆水平,所以,一个变成了干预组,一个变成了控制组。这两组在女孩比例上的差异,就是嫁妆的多寡所带来的因果效应。这个方法,就是所谓的双重差分方法。这种方法把八戒下凡与高小姐成亲事件发生之后出现的其他那些影响女孩子比例的因素,通过对照组的对比就给消除掉了,因为理论上说,如果没有八戒事件,流沙河村和高老庄村原本应该受到同样的因素所影响。所以,流沙河村就是高老庄村的反事实情况组。”
众人一听,都点头不已,称赞悟空又断了一桩奇案。
之后,悟空又请出师父唐三藏为高老庄村祈福,并向十里八乡的老百姓宣扬,昔日的妖怪不仅不再害人,现在还修成了正果,高老庄村民特地集资修建了一座净坛使者庙。从此之后,高老庄村再也不愁嫁女儿要陪送昂贵的嫁妆,净坛使者庙的香火越发繁盛了。
 
双重差分方法最早的提出者是生活在19世纪的英国医生约翰·斯诺(John Snow)。
约翰·斯诺是一个流行病学家,专门研究疾病是如何在人群当中传播。1849年,伦敦爆发了一场霍乱疫情。当然大家认为,霍乱疫情乃是由于空气不良而引起的。但斯诺不认同这种流行的看法,他认为,霍乱疫情可能是由受污染的水所导致的。他在1849年的论文《论霍乱传播的模式》(On the Mode ofCommunication of Cholera[4]中第一次提出这个想法。
斯诺对数据分析得非常细致。1855年,斯诺在对论文进行修订时,按照地区和水源不同整理了伦敦多个地方的死亡率数据。他发现,伦敦南部许多高死亡率地区的用水都是来自两家自来水公司,一个是南城供水公司,一个拉姆百思供水公司。1849年,这两家公司都从受到污染的伦敦市中心的泰晤士河段取水。但是,从1852年起,拉姆百思供水公司开始从泰晤士河上游未被污染的迪顿段取水。斯诺发现,从1849-1854年,在拉姆百思供水公司供水的地区,因霍乱引起的死亡率出现下降,而由南城供水公司供水的地区,死亡率仍在上升。[5]
于是,斯诺使用了双重差分方法。他先用拉姆百思公司供水区在改变取水点后的死亡率减去供水前的死亡率,得到一个差值;这个差值表示,拉姆百思公司供水区在取水点发生变化前后死亡率上的变化。然后再用南城公司供水区在同样时点之后与之前的死亡率相减,这样就又得到一个差值;这个差值表示,南城公司供水区在拉姆百思公司取水点发生变化前后的死亡率。虽然这个死亡率也是拿1852年之后的情况减去之前的情况,但南城供水公司的取水点并没有发生变化,其实,这个时候的南城公司供水区就相当于另外一个拉姆百思公司供水区,只是取水点没有发生变化而已,这是一个反事实情况。最后用前一个差值减去后一个差值,也就是拿实际发生取水点变化的拉姆百思公司供水区的死亡率之差,减去反事实情况下的南城公司供水区的死亡率之差,所得结果就是改变取水点所带来的对死亡率的因果效应。这样,有了南城公司供水区这个对照组,或者叫反事实情况,就可以控制除了取水点变化这个因素之外的其他因子,从而把遗漏变量所造成的偏误给消除了。
因为这里面要两次用到差值,所以,这个方法就被称为双重差分,又叫做倍差法。当然,既然有双重,也就可以有三重、四重,但重数越多,解释起来就越是繁难,而其基本思想却是没有多少差别的。

御马监里的经济账——工具变量解纷争

话说悟空自西天取经回来之后,一直闲来无事。这一日,他突然心血来潮,想来一番故地重游,就到了天宫御马监里走了一遭。
御马监监丞听说之后,赶忙迎了出来。带悟空游览了一圈御马监、天河牧马场,还有天马饲养舍等地。时光仿佛倒流了500多年,悟空一路兴致颇高。
只见天河牧马场上,天马行空,龙马精神,真是看得悟空心中大悦。
最后,悟空和监丞来到了千里马培育基地。这个基地是悟空走后设立的,所以悟空并不熟悉。
监丞向悟空介绍道:“大圣,这是你走了之后由天宫创新突击办公室设立的。在这里培养天宫的千里马。天马若是到了凡间,当然个个都是千里马,但在这天上,若是能取得千里马之称,一天能跑出凡间的数百倍距离,当真称得上是神驹了。我们在这个千里马培育基地,这些年来已经培育了一大批千里马,成绩傲人啊!”
这时,一旁的副监丞忙过来说道:“禀大圣,之所以千里马基地能够取得这样的成绩,和我们监丞引进的一套绩效评价系统有很大的关系。因为培育千里马,不仅需要够运气,还需要马倌们的精心喂养和训练,非常不容易。”
悟空一边听,一边看天河牧马场上的一匹神驹。只见它四脚腾空,如同风驰电掣,一会儿工夫就消失在云峦之巅。如此神骏,确实难得!悟空跳上了一匹正在奔跑中的千里马,一勒马缰,那马前蹄离地,一声骅骝,疾驰而出。悟空不禁大笑,连呼“痛快!”
一行人回到千里马培育基地的休息室,正要喝茶休息片刻,只听外面一片吵闹声。监丞忙问副监丞:“不知出了什么事情?”副监丞出去了解了一下情况,很快回来禀报道:“原来是最近千里马培育基地的马倌们起了一点纷争,要求重新分配千里马培育基地的小马驹。情况是这样的,最初基地成立的时候,这些马倌各自都分了一批马驹回去喂养,进行培育和训练。后来他们各自培养之后,那些马驹长大之后,再生育后代,生下小马驹,继续培育。这些年来,有的马倌培育出来的千里马比例更高,这样一来,他们的后代产下具有千里马潜质的小马驹的概率也会更高。这就形成了一种互相促进、互为因果的关系。也就是说,你越是精心喂养小马驹,对它们勤加训练,并且培训得法,你就越可能培育出千里马来。而你越是可能培育出千里马,你的马生下的小马驹就越有可能成为未来的千里马,但所谓的更有可能,也都是在同样的马倌手里培养出来的,很难说这到底是因为马驹质量好,还是马倌培育更加精心得法所致。”
悟空问道:“那现在这些马倌在争吵些什么?”
副监丞回答:“现在,有些培育千里马不力的马倌就把责任推到他们的马驹品种不好,认为那些培育千里马成绩优良的人实际上不过是运气好而已,不是他们更努力,而是他们更有运气。所以,这些人要求重新分配小马驹。但那些培育出较多千里马的人却认为,他们的成绩好,纯粹是因为他们努力工作,更加细心地喂养和训练小马驹才得来。他们的成绩来之不易,不能都归功在当初的马驹品种上,而且现在这品种的改善,也是他们自己努力的结果。这些人认为前面那些马倌自己不努力,现在想来夺取他们的胜利果实,自然是不肯相让。”
监丞听了,不禁犯起难来:“大圣,你看这事情,精心训练出好的千里马,可能会带来更多好的小马驹,而更多好的小马驹,又可能更容易地训练出千里马。到底马倌们精心喂养、努力训练对于培育千里马起的作用有多大呢?这里面总混杂着小马驹的质量情况,而二者又相互影响、互为因果,真是很难清楚地把它们分开呀。”
副监丞这时插嘴道:“大圣,监丞,其实小马驹的质量也要看年份,大部分年份当然没有什么特别的地方。不过,不定哪一年王母娘娘寿诞,玉帝若是心血来潮,高兴起来会普降甘露,那一年的小马驹质量都会提高,而且所有马倌的小马驹都能得到甘露,从质量上看那一年的小马驹就都很不错了。”
那孙大圣听到这里,不禁哈哈大笑,说道:“监丞何必忧心!你所说的这个问题,正是因果推断中的一个难点,也即所谓‘逆向因果’或‘双向因果’问题。一个变量影响另一个变量,而另一个变量也会反过来影响这个变量,彼此相互交融,互相影响,到底谁是因谁是果确实很难分清。”
监丞皱起了眉头,问道:“大圣,那这该怎么办呀?我们希望激励马倌好好养马,如果那些不好好养马的马倌编造说辞,把原因都归到马驹质量上,我们又该如何回应?事实上,我们也确实无法监督到每个马倌,看他们是否在努力培育千里马,我们只能根据结果对马倌进行表彰。”
大圣道:“解决这类双向因果问题,不是没有办法,有一种计量方法,叫‘工具变量’回归,十分巧妙,而且非常有用。当然,这工具变量方法不仅可以用来解决双向因果问题,也可以解决像遗漏变量等许多其他问题。但这种方法需要一个外生的变化,也就是说,在这里,它与影响是否能培育成千里马的其他变量没有什么关系,但它却可以单独影响小马驹的品质,从而影响到培育千里马的成功率。”
监丞听说有办法可以把小马驹的质量对千里马培育成功率的影响估计出来,不禁大为兴奋道:“大圣,既然这工具变量之法如此神奇,那赶紧把工具变量这尊大神请出来,为我们释疑解惑吧。”
悟空笑道:“哪里有什么工具变量神仙?这工具变量,找起来可是不易,需要有慧心之人细心查访,有时候可以称得上是妙手偶得之。”
监丞面有失望之意,道:“那这该如何是好?”
大圣道:“监丞不必担心,我刚才已经找到了一个可称如意的工具变量,可以助你寻找出小马驹质量提高所带来的千里马培育成功率的变化,但你需要把往年这些马倌所有的培育千里马的情况信息都给我找来。此外,副监丞,还要劳烦你把玉帝老儿普降甘露的年份都找来,我有妙用。”
监丞和副监丞领命而去。不多时,所有这些数据都拿到了悟空跟前。
悟空道:“现在,我们找到的这个工具变量,就是玉帝在某年是否降下了甘露。若是玉帝降下甘露,这个甘露会影响到马驹的品质,而马驹的品质又会影响到千里马培育的成功率。同时,玉帝是否降下甘露,全看玉帝那一年是不是心血来潮,这因素完全随机,与其他那些使千里马培育成功或失败的因素都不相干。这样,玉帝某年是否降下甘露这个变量就满足了工具变量的两个条件:第一,与主要的我们所关心的那个原因变量具有相关性,这就是相关性条件;在这里,这个原因变量就是小马驹的品质改善。第二,与其他那些影响被解释变量的因素无关,这就是外生性条件;在这里,这个被解释变量就是千里马培育的成功率,其他因素就是除了小马驹质量这个因素之外的其他影响千里马培育成败的因素。除此之外,我们还需要把玉帝没有降下甘露的年份中各个马倌的千里马培育成功率进行加总后平均,也把它作为控制变量加入进来,这样可以进一步保证我们估计出来的小马驹质量对千里马培育成功率因果效应的精确性。”
副监丞带领众随从依命一一作了指标的编制、数据的清理,并进行了回归。结果,他们发现:小马驹质量因玉帝普降甘露而得到改善之后,千里马培育成功率确实有所增加;但是,那些在平常年份培育千里马成功率更高的马倌,因甘露而得到的成功率提高得更多,而那些平时就不大能培育出千里马的马倌,虽然培育的千里马也有所增加,但从量上看要少得多。
众人见大圣为他们解决了纷争,纷纷夸赞悟空法力高深。那些勤劳的马倌个个前来给悟空磕头道谢,感谢大圣让大家认识到他们努力的成果,表示从此将会更加勤劳地培育更多千里马。
孙大圣嘱咐大家多学科学知识,注意数据分析,尤其是在天宫进入大数据时代之后,更应该努力跟上时代,不然无论他法力如何了得,最终都会被时代抛弃。大家纷纷点头称是,与大圣挥手作别!
 
工具变量回归方法最早就是为了解决计量经济学中双向因果关系问题而提出来的,见于菲利普·G·赖特(Philip G.Wright)1928年所著的一本名叫《动物油脂和植物油脂的关税》(Tariff on Animal and Vegetable Oils)的书[6]的附录B。这本书前面的285页,讲的都是20世纪初叶动植物油的生产、运输以及销售的情况。计量经济学家们独独对该书285页之后这个附录B感兴趣,因为这个附录给出了我们现在称之为工具变量估计量的“引入外部因素的方法”的两种推导,并且利用这一方法估计了黄油和亚麻油的供给和需求弹性。
了解一点经济学知识的读者可能知道,在竞争性市场中,向上倾斜的供给曲线和向下倾斜的需求曲线交叉,在交点处确定了均衡价格和均衡数量。但是,人们只能观察到市场上的均衡价格和均衡数量,却不知道怎么由这些数据得到供给曲线和需求曲线,因为这些均衡价格和均衡数量是由供给和需求共同决定的,你若想画出供给曲线,就得保持需求不变,但数据却无法做到这一点。在菲利普生活的年代,人们对计量经济学知识知之不多,他们发现这两个变量几乎是同时被决定的,因此感到束手无策。
在这篇附录B里,菲利普运用联立方程模型对此进行了较好的阐述。它向人们解释了为什么可以用在一个方程中出现、但在另一个方程中不出现的变量来解决这个问题。他把这个未出现在另一个方程的变量叫做“外部变量[s3] ,通过移动外部因素所在的这个方程,他们可以追踪到不包含外部因素的那个方程的运动轨迹。这就是说,对后一个方程而言,这个变量是“外生”变量。我们今天把这种移动的外部因素称作工具变量。比如,菲利普在对亚麻籽市场进行分析时,使用需求曲线的变动因素替代价格,这个需求曲线的变动因素,就是每亩产量的变化主要受天气条件影响,而天气条件就是那个工具变量。[7]
菲利普这本书的这篇附录B,非常了不起,是一个出人意想的计量思想的重大突破。但菲利普只是一位默默无闻的经济学家,除了这个附录之外,几乎没有留下什么其他的思想遗产。他从哈佛大学拿到硕士学位之后,在美国伊利诺伊州盖尔斯堡一所偏僻的规模较小的隆巴德学院当了很多年老师。这所隆巴德学院甚至没能抗住大萧条的冲击,后来也很快倒闭了。但菲利普·莱特的儿子斯维尔·莱特(Sewall Wright)却成长为一位杰出的人口遗传学家和统计学家。由于附录B中的数学内容与全书其他地方的风格似乎有所不同,因此很多计量经济学家认为,这篇附录有可能是菲利普的儿子斯维尔匿名所撰。
那么,这篇附录B到底是出自谁之手呢?是父亲菲利普,还是儿子斯维尔呢?
事实上,这对父子都可能是作者,具体到这篇附录的作者到底是谁,却是一个悬案。菲利普曾在1915年的一篇文章里,说明了为什么数量对价格的回归在一般情况下并不能估计出需求曲线。在20世纪20年代初,斯维尔正在研究遗传学中包含多个因果变量的多个方程式的统计分析,他之所以能在1930年到著名的芝加哥大学任教,部分原因也是因为这个研究。
但这也还是难不倒善断奇案的经济学大侦探们。
哈佛大学经济学教授、著名计量经济学家詹姆斯·斯托克(James Stock)与合作者弗朗西斯科·特来布(Francesco Trebbi)使用了所谓文风计量学(Stylometrics)[8],研究了斯维尔的作者身份文体。文风计量学可以分辨出作者的词汇使用和句法结构的统计规律。从这种文风上进行分析,两位大侦探确认,菲利普才是附录B的作者。后来,这两位大侦探还通过这对父子在20世纪20年代中期的书信往来表明,工具变量的思想应该是二人一起合作的共同结晶。
至此,这一桩工具变量思想的发明权悬案终于告破。



[1]可参阅:Francis Galton, “Regression towards Mediocrity in HereditaryStature,” Journal of the Anthropological Institute of Great Britain andIreland, vol. 15, 1886, pages 246–263.

[2]参看:《精通计量》,【美】安格里斯特和皮施克著,郎金焕 译,格致出版社20199月版

[3] Experimental andQuasi-Experimental Designs for ResearchDonald T. Campbell andJulian StanleyWadsworth Publishing1963

[4]原文可以在以下网址处下载:http://s3.amazonaws.com/aspphwebassets/delta-omega/archives/snowfin.pdf

[5]参看:《精通计量》第五章中的“计量大师:John Snow”。

[6]参阅:Philip G. Wright, The Tariff on Animal and Vegetable Oils, MacmillanCompany, 1928

[7]参阅:《精通计量》,第三章“工具变量”中“计量大师:了不起的Wrights”这一小节。

[8]参阅:James H. Stock and Francesco Trebbi, “Who Invented Instrumental VariablesRegression?” Journal of Economic Perspectives, vol. 17, no. 3, Summer 2003,pages 177–194.




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存